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摘 要 : 网 站 新 闻 是 网 络 新 闻 传 播 的 重要 数据 源 ， 统 计 网 站 新 闻 在 经 过 网 络 多 次 传播 后 的 全 网 阅读 量具 有 重要 意义 。 然 而 ， 
目前 尚未 有 成 熟 的 全 网 阅读 量 统计 方法 。 本 文 对 网 站 新 闻 全 网 阅读 量 统计 方法 展开 研究 ， 在 分 析 统 计 网 站 新 闻 全 网 阅读 量 面 
临 的 各 种 复杂 度 的 基础 上 ， 提 出 了 一 个 统计 算法 模型 ， 并 分 析 了 该 模型 的 优 缺点 。 
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1. 统计 网 站 新 闻 全 网 阅读 量 的 意义 

在 网 络 媒体 、 自 媒体 、 移 动 媒体 不 断 壮大 的 今天 ， 
网 站 已 经 在 一 定 程度 上 成 为 了 传统 媒体 平台 。 虽 然 直接 
从 网 站 获取 新 闻 的 网 民 在 不 断 减少 ， 但 网 站 新 闻 一 直 是 
各 平台 网 络 新 闻 转 发 分 享 的 重要 数据 来 源 ， 而 且 网 站 新 
闻 在 权威 性 、 真 实 性 上 相对 其 他 媒体 平台 具有 明显 优势 。 

统计 网 站 新 闻 传 播 获得 的 全 网 阅读 量具 有 重要 意义 。 
从 国家 层面 看 ， 新 闻 宣 传 主管 机 构 需 要 掌握 重要 政策 、 
权威 信息 、 宣 传 内 容 的 落地 情况 ; 从 传媒 行业 层面 看 ， 
各 新 闻 媒体 单 位 需要 了 解 自 映 媒体 的 影响 力 ， 整 个 行业 
也 需要 给 出 影响 力 排 行 ， 从 新 闻 策划 层面 看 ， 新 时 代 的 
策划 者 已 经 不 能 再 只 赁 自身 经 验 和 新 闻 敏 感度 做 出 决定 ， 
决策 必须 要 有 数据 和 参考。 以往， 各 媒体 单位 更 多 是 依靠 
自身 的 网 站 访问 量 统计 系统 获取 网 站 新 闻 的 传播 数据 ， 
该 数据 只 能 代表 网 站 新 闻 在 单个 媒体 平台 的 阅读 情况 ， 
不 能 反映 全 网 阅读 情况 。 本 文 提出 的 全 网 阅读 量 ， 为 单 
个 新 闻 的 全 网 传播 效果 给 出 了 一 个 量化 指标 ， 进 而 更 能 
满足 各 层面 对 传播 效果 的 统计 需求 。 

男 一 方面 ， 随 着 科技 的 进步 ， 文 本 相似 度 计算 在 信 
息 检 索 的 效率 提高 方面 起 到 了 很 大 的 作用 。" 再 加 上 和 目 
前 大 数据 分 析 技 术 的 日 至 成 熟 ， 在 对 全 网 进行 数据 挖掘 
的 基础 上 ， 能 够 通过 文本 相似 度 算法 跟踪 一 篇 稿件 在 全 
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篇 网 站 新 闻 稿 的 全 网 阅读 量 ， 会 受到 网 站 新 闻 稿 所 在 的 
空间 .时间 .传播 过 程 以 及 统计 过 程 等 多 方面 因素 的 影响 ， 
接 下 来 本 文 从 这 四 个 维度 加 以 分 析 。 

2. 1 空间 复杂 度 

网 站 新 闻 被 不 断 转 发 后 ， 会 出 现在 网 络 空间 多 个 位 
置 上 。 首 先 ， 稿 件 会 出 现在 多 个 网 站 上 ， 不同 的 稿件 被 
转发 的 网 站 数量 各 不 相同 ; 其 次 ， 稿 件 可 能 出 现在 同一 
网 站 的 多 个 位 置 上 , 例如 在 网 站 首页 、 网 站 相关 频道 首页 、 
网 站 专题 页 、 网 站 子 栏目 页 等 ; 再次， 稿件 还 可 能 在 社 
交 网 络 上 有 更 复杂 的 存在 形式 , 比如 , 论坛、 贴吧 、 微 博 、 
微 信 等 (关于 稿件 在 社交 网 络 上 的 阅读 数 ， 多 可 从 各 平 
台 直 接 获取 ， 本 文 统计 算法 中 暂 不 考虑 ) 。 

2. 2 时 间 复 杂 度 

不 同时 间 点 稿件 的 传播 情况 不 同 。 随 着 时 间 变 化 ， 
稿件 逐渐 出 现在 多 个 网 络 空间 位 置 上 , 统计 时 间 点 不 同 ， 
稿件 的 空间 位 置 数量 也 不 同 ， 统 计 得 到 的 阅读 量 也 就 不 
同 。 

不 同时 间 点 稿件 的 热度 也 不 同 。 诸 如 热度 衰减 、 再 
次 发 酵 、 旧 闻 新 炒 等 ， 导 致 统计 的 阅读 量 也 不 同 。 如 图 1 
是 一 条 真实 新 闻 稿 件 阅 读 量 随时 间 变 化 的 曲线 图 ， 该 图 
展示 了 该 条 稿件 从 变 热 到 衰减 最 后 到 消亡 的 过 程 。 该 新 
闻 稿 件 从 4 月 30 日 凌晨 发 稿 后 ,在 当日 15 点 到 19 点 较 


网 的 传播 情况 ， 这 为 统计 网 站 新 闻 全 网 阅读 量 提 供 了 技 
术 可 能 。 
2. 统计 网 站 新 闻 全 网 阅读 量 的 复杂 度 

与 统计 单个 网 站 的 网 站 新 闻 阅 读 量 不 同 ， 要 统计 一 
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短 时 间 内 阅读 量 达 到 最 大 ， 然 后 稿件 热度 衰减 ， 阅 读数 
也 随 之 逐渐 下 降 。 在 次 日 的 3 点 处 于 衰减 期 的 该 稿件 由 
于 某 种 外 界 因素 被 重新 激活 ， 稿 件 阅 读 量 重 新 上 升 ， 然 
后 义 开始 衰减 ， 最 后 消亡 。 
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图 1 某 新 闻 稿件 生命 周期 图 
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2. 3 传播 复杂 度 

稿件 在 传播 过 程 中 会 面临 许多 复杂 的 情况 。 第 一 ， 
转载 媒体 可 能 会 对 被 转载 稿件 的 标题 进行 修改 ， 甚 至 
对 内 容 进 行 增删 处 理 ; 第 二 ， 有 的 转载 媒体 并 不 标注 
转载 来 源 ,造成 在 溯源 统计 中 稿件 传播 链 的 断裂 ; 第 三 ， 
同一 个 转载 媒体 会 将 同一 篇 稿件 转发 到 同一 网 站 的 多 
个 位 置 ， 形 成 多 个 传播 链 分 支 ; 第 四 ， 稿 件 被 转发 后 
在 各 个 空间 位 置 的 停留 时 长 不 同 ， 例 如 稿件 在 一 段 时 
间 内 出 现在 某 网 站 的 首页 大 标题 上 ， 不 和 久 后 该 稿件 从 
首页 大 标题 上 撤 下 ， 也 就 不 再 具备 该 网 站 位 置 的 曝光 
率 和 阅读 量 。 
2.4 统 计 复杂 度 

在 实际 统计 过 程 中 会 面临 许多 复杂 的 情况 ， 也 会 增 
大 全 网 阅读 量 统 计 的 难度 , 大 致 包含 以 下 一 些 情况 : 首先 ， 
不 是 所 有 网 站 对 自己 稿件 的 阅读 量 都 有 统计 ; 其 次 ， 即 
使 有 的 网 站 对 阅读 量 有 统计 ， 各 网 站 的 统计 方法 和 标准 
也 不 尽 相 同 ; 再 次 ， 一般 来 讲 ， 大 部 分 网 站 不 会 对 外 公 
布 自己 的 真实 统计 数据 ; 还 有 ， 就 算 各 网 站 都 公布 了 自 
己 的 统计 数据 ， 对 全 网 各 统计 数据 进行 收集 整理 的 难度 
也 非常 大 ， 几 乎 很 难 实现 ; 最后， 由 于 很 可 能 不 能 及 时 
完整 地 获取 各 网 站 统计 数据 ， 各 网 站 统计 数据 又 都 在 不 
断 随 时 间 变 化 , 使 得 统计 周期 长 , 统计 时 间 点 很 难 把 握 ， 
最 后 得 到 统计 结果 的 时 效 性 和 真实 性 都 不 大 。 
3. 统计 网 站 新 闻 全 网 阅读 量 的 算法 实现 
基于 以 上 复杂 度 分 析 ， 要 想 获取 精确 的 网 站 新 闻 全 
网 阅读 量 几 乎 是 不 可 能 的 。 但 是 我 们 可 以 通过 一 定 的 算 
法 模型 估算 稿件 的 阅读 量 ， 使 计算 出 的 全 网 阅读 量 能 在 
数量 级 上 提供 参考 价值 , 从 而 一 定 程 度 上 解决 这 个 难题 。 
3. 1 统计 网 站 新 闻 全 网 阅读 量 的 前 置 条 件 

条 件 一 ， 明 确 对 网 站 新 闻 阅 读 量 的 定义 。 本 文 所 指 
的 网 站 新 闻 阅 读 量 ， 指 用 户 通 过 浏览 器 打开 稿件 正文 页 
一 次 ， 即 算 贡 献 一 个 阅读 量 ， 即 页 面 浏览 数 ( PageView， 
PV ) 。 

条 件 二 , 能 够 获得 被 统计 稿件 在 首发 网 站 的 阅读 量 。 
本 算法 使 用 者 一 般 是 某 个 网 站 媒体 ， 依 据 本 算法 计算 本 
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的 首发 新 闻 稿 件 为 例 ， 对 网 站 新 闻 全 网 阅读 量 统 计算 法 
展开 分 析 。 

假设 现 有 一 篇 军 网 原创 稿件 被 投放 到 军 网 的 军 媒 要 
文 要 论 、 军 网 关注 、 国 内 新 闻 等 共 n 个 栏目 下 ， 军 网 作 
为 稿件 首发 网 站 ,一段 时 间 后 假如 是 t 小 时 该 稿件 在 军 
网 的 阅读 量 表示 为 Rh， 则 t 小 时 后 Ro 为 : 

R, = Ro t Ros +t...+ Ro, (公式 1) 

其 中 ，Rol、Ros、Ro, 代表 不 同 栏目 下 的 阅读 量 ， 
这 一 组 阅读 量 可 以 从 军 网 自己 后 台 的 访问 统计 系统 中 
获取 到 。 然 后 ， 我 们 计算 该 稿件 在 军 网 单个 栏目 下 的 
平均 阅读 量 。 由 于 同一 稿件 不 同 栏目 下 的 访问 量 不 同 ， 
比如 出 现在 网 站 首页 大 标题 上 被 点 击 的 概率 一 定 比 出 
现在 网 站 其 他 栏目 点 击 率 高 ， 所 以 ,在 计算 单个 栏目 
平均 阅读 量 时 ， 不 能 简单 把 各 栏目 的 阅读 量 取 平 均值 
作为 单个 栏目 的 平均 阅读 量 ,， 我们 采用 加 权 平 均 的 算 
法 ， 这 样 更 符合 实际 。 本 文 以 ww 代表 军 网 第 i 个 栏目 
里 稿件 的 阅读 量 权 重 值 (0<rw<1) ， 则 该 稿件 在 军 网 
单个 栏目 的 平均 阅读 量 为 : 


BR =n Ro tr +t.th, RH m=1 (公式 2) 
这 


现在 ,假设 有 网 站 1 此 时 有 多 个 栏目 转载 了 该 篇 稿 
件 , 并 且 我 们 无 法 获得 该 稿件 在 该 网 站 的 阅读 量 。 那 么 ， 
我 们 可 通过 引入 网 站 PR 值 比值 和 网 站 日 均 访 问 量 比值 的 
方式 估算 该 稿件 在 该 网 站 的 阅读 量 R,。 

引入 PR, 代表 网 站 1 在 google 网 站 的 网 站 PR 值 。 
网 站 受 欢迎 程度 越 高 ， 该 网 站 越 容易 被 搜索 引擎 收录 ， 
收录 数 越 大 网 站 被 访问 率 就 越 高 。 在 评价 一 个 网 站 的 受 
欢迎 程度 时 ， 我 们 采用 google 网 站 为 各 网 站 定义 的 PR 值 
来 衡量 。 网 站 的 PR 值 (全 称 为 PageRank ) 是 google 搜 
索 排名 算法 中 的 一 个 组 成 部 分 ，2PR 值 的 级 别 从 工 到 10 
级 ,10 级 为 满分 。PR 值 越 高 说 明 该 网 站 越 受 欢迎 。 例 如 ， 
人 民 网 的 PR 为 7、 军 网 为 6、 新 华 网 为 9 等 。 各 网 站 PR 
值 可 以 通过 编写 程序 从 google 网 站 获得 。 

引入 A; 代表 网 站 1 的 日 均 访问 量 。 不 同 网 站 的 日 均 
访问 量 可 以 通过 Alexa 网 站 获取 。 用 户 通 过 装 有 Alexa 工 


网 首发 稿件 的 全 网 阅读 量 。 首 发 网 站 通常 能 够 获取 自身 


具 栏 的 浏览 器 访问 某 个 网 站 时 ，Alexa 工具 栏 就 会 把 访问 


网 站 的 稿件 阅读 量 ， 如 果 不 能 则 可 通过 在 网 站 后 台 部 团 
一 套 访问 量 统计 系统 即 可 实现 。 本 算法 将 以 此 作为 计算 
基础 ， 力 争 提 高 计算 结果 的 可 信 度 。 

条 件 三 ， 我 们 假设 通过 大 数据 分 析 ， 能 够 获取 到 稿 
件 被 转载 的 媒体 以 及 该 稿件 在 该 转载 媒体 上 所 属 的 栏目 。 
现在 大 数据 技术 和 网 络 候 虫 技术 都 趋 于 成 熟 ， 候 取 新 闻 
网 站 的 稿件 ， 然 后 通过 相似 性 算法 对 比 新 闻 稿件 的 内 容 
实现 对 原创 新 闻 稿件 的 跟踪 ， 从 而 获取 原创 稿件 被 转载 
的 媒体 和 所 属 被 转载 媒体 的 栏目 。 

3. 2 统计 网 站 新 闻 全 网 阅读 量 的 算法 描述 
为 了 便于 说 明 , 本 文 以 中 国 军 网 (以 下 简称 “ 军 网 ”) 


言 息 记 录 并 发 送 到 Alexa 网 站 ， 然 后 Alexa 网 站 计算 出 每 
个 网 站 的 日 均 访 问 量 。 虽然 这 个 访问 量 是 相对 访问 量 ， 
不 是 真实 访问 量 ,， 但 可 以 作为 计算 网 站 间 访 问 量 比值 的 
依据 。 各 网 站 的 Alexa 日 均 访问 量 也 可 以 通过 编写 程序 从 
网 上 获得 。 

PR, 与 PR 的 比值 为 网 站 1 相对 于 军 网 受 欢 迎 程度 
的 倍数 ，Al 与 Au 的 比值 为 网 站 1 相对 于 军 网 的 日 均 访问 
量 倍数 。 

假设 m 为 网 站 1 在 此 时 转载 了 该 新 闻 稿 件 的 栏目 总 
数 ， 则 此 时 该 稿件 在 网 站 1 的 阅读 量 R, 可 由 以 下 公式 算 


往 
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2 (公式 3) 
PR, 4, 
假设 t 这 段 时 间 内 有 N 个 媒体 转载 了 军 网 的 上 述 原 
创 稿 件 ， 则 t 这 段 时 间 内 该 稿件 的 总 阅读 量 Wo 为 : 
W,=R+R+...RVHE N20 (公式 4) 
其 中 : 
R= Rt+Ro, t+...+ Ro, 
a 
PR, 4, 


1 


(公式 5) 


人 


PR 4 ek 
Ry = PR, 4, “Ro: My 

随 着 时 间 的 推移 ，R。 会 随 着 时 间 变 化 而 变 大 ， 成 为 
RoD。 由 于 各 个 转载 媒体 阅读 量 Ri 的 统计 都 是 以 Ru 为 基 
础 计算 出 来 的 ， 所以， 在 Ro 变 大 后 Ri 也 会 变 大 ， 成 为 
Ri:Q)。 同 时 ，m; 代表 第 i 个 转载 媒体 下 有 mi 个 栏目 转发 
了 军 网 的 原创 稿 ，mi 也 会 随 着 时 间 的 变化 而 变化 ， 成 为 
m;()， 变 大 则 说 明 对 应 的 媒体 扩大 了 转载 栏目 的 个 数 ， 变 
小 则 说 明 对 应 的 媒体 在 部 分 栏目 进行 了 撤 稿 。m; 的 变化 
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也 会 导致 R; 的 变化 。 


因此 ， 第 i 个 转载 媒体 的 阅读 量 为 : 


R(1) = R(Ro(D,m,(D)) (公式 6) 
即 : 

PR 4 
0 “4 Om) (公式 7) 
由 此 ， 网 站 新 闻 的 全 网 阅读 量 为 : 
W =W(t)= R(T)+R(D +...+ Ry(D) (公式 8) 


一 般 来 讲 ， 


W 不 会 一 直 变 大 ， 在 该 网 站 新 闻 稿 的 标 


题 链接 逐步 从 各 网 站 的 栏目 页 退出 后 ， 稿 件 的 传播 生命 
周期 基本 结束 (不 考虑 网 民 通 过 搜索 引擎 再 次 访问 该 网 


页 


) ,稿件 的 全 网 阅读 量 就 不 再 增加 了 。 


3. 3 算法 实际 应 用 


基于 以 上 算法 ， 本 文 对 军 网 一 篇 网 站 新 闻 稿 《55 岁 


“高 龄 ”被 特 招 人 伍 ， 他 凭借 的 是 喻 ? 》 进 行 了 跟踪 统计 。 
该 稿件 在 中 国 军 网 发 布 t=8 小 时 后 在 各 个 栏目 下 的 阅读 


三 月 
里 


之 和 Ro=1440。 其 中 ，R1=940、Rs=415、Rs=85。 通 过 
解放 军 报 大 数据 服务 平台 分 析 发 现 ， 此 时 共有 10 个 网 站 


对 该 稿件 进行 了 转载 ， 具 体 相 关 参 数 如 下 表 所 示 。 


转载 网 站 转载 网 站 PR 值 转载 网 站 日 平均 访问 量 Ai 对 应 网 站 转发 栏目 数 mi 
中 国 军 网 6 4144000 3 
手机 新 浪 网 有 1478000 2 
中 国 网 8 52480000 1 
中 工 网 7 12000 1 
新 浪 新 闻 8 378560000 9 
国防 部 网 3000 2 
草 楚 网 8 576000 1 
台海 网 沁 32000 3 
第 一 推 2 28000 2 
hao123 6 86831000 3 
中 宏 网 1 256000 1 
取 军 网 3 个 原 发 栏目 的 权 值 分 别 为 0.6、0.3、0.1， 结语 


代入 公式 2 得 =697。 把 上 表 中 的 相关 数据 代入 公式 8 
中 得 W(8)=227,556。 则 该 稿件 在 发 布 8 小 时 后 的 全 网 阅 
读 量 为 227,556。 
3.4 算法 优 缺 点 分 析 

算法 优点 : 一 是 本 算法 充分 考虑 了 网 站 新 闻 阅 读 量 
统计 的 时 间 复 杂 性 、 空 间 复杂 性 、 传 播 复 杂 性 和 统计 复 
杂 性 ， 归 纳 出 了 可 操作 的 计算 全 网 阅读 量 的 方法 ; 二 是 
本 算法 以 被 统计 稿件 在 某 个 网 站 的 真实 阅读 量 为 基础 进 
行 估算 其 他 网 站 的 阅读 量 ， 使 得 计算 结果 更 加 真实 ; 三 
是 本 算法 除了 对 网 站 本 身 、 网 站 日 均 访 问 量 这 些 因素 进 
行 评 估 ， 还 考虑 了 首发 网 站 不 同 栏 目 对 稿件 阅读 量 的 影 
响 ; 四 是 使 用 者 可 以 自己 对 首发 网 站 不 同 的 栏目 设置 相 
应 的 权 值 ， 具 有 一 定 的 灵活 性 。 

算法 不 足 : 一 是 本 算法 不 能 准确 的 算出 一 篇 新 闻 稿 
在 全 网 的 阅读 量 ， 只 是 在 数量 级 上 提供 参考 ; 二 是 对 首 
发 网 站 不 同 栏目 的 权 值 设置 没有 一 个 统一 的 标准 ， 而 是 
由 使 用 者 自己 设置 ， 既 是 优点 也 是 缺点 。 


个 


一 篇 网 站 新 闻 稿 的 全 网 阅读 量 比 在 单一 网 站 的 阅读 


量 能 更 好 地 反映 其 宣传 效果 ， 同 时 也 更 适合 作为 影响 力 评 
、 新 闻 策 划 的 参考 依据 。 本 文通 过 仔细 考虑 影响 全 网 阅 


读 量 的 各 种 因素 ,归纳 出 了 可 操作 的 全 网 阅读 量 算法 公式 ， 
初步 实现 了 在 全 网 范围 内 跟踪 统计 一 篇 稿件 的 阅读 量 ，》 
进一步 展开 网 站 新 闻 传 播 大 数据 分 析 打 下 了 基础 。 吕 
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